Giới thiệu về lập trình Triton: Mâu thuẫn hiệu suất: Vì sao mã đúng lại chậm?

Hiệu suất Mâu thuẫn hiệu suất cho rằng một hàm hạt nhân hoàn hảo về mặt toán học, ví dụ như $out = x + y$, có thể thực sự hoạt động kém hơn vòng lặp trên CPU nếu nó không thể giảm thiểu được chi phí cố định của phần cứng GPU. Điều này thường thể hiện qua Phí khởi chạy.

1. Sai lầm về "Tính chính xác"

Tính chính xác chức năng không phải là chỉ số thay thế cho hiệu suất. Dù mã Triton của bạn có thể phân phối công việc chính xác đến hàng nghìn luồng, nhưng nếu tổng khối lượng công việc (N) quá nhỏ, GPU sẽ không được tận dụng tối đa. Phần cứng dành nhiều thời gian hơn trong các chuyển đổi trạng thái so với thực hiện phép toán thực sự.

2. Bẫy đo lường bằng Python

Đo lường hiệu suất mã GPU từ Python bằng cách sử dụng time.time() là rất nguy hiểm. Các lời gọi GPU là bất đồng bộ; Python chỉ đơn giản là đặt vào hàng đợi lệnh và tiếp tục tiến hành. Không có torch.cuda.synchronize(), bạn đang đo thời gian xếp hàng. Khi đồng bộ hóa, bạn đo được thời gian trễ từ máy chủ đến thiết bị, thường dài gấp 10 lần so với thời gian thực thi hàm hạt nhân.

3. Thời gian trễ so với băng thông

Để vượt qua mâu thuẫn này, bạn cần cung cấp đủ khối lượng công việc để "che giấu" thời gian trễ khởi chạy. Đây là sự chuyển dịch từ chế độ giới hạn bởi thời gian trễ chế độ (giới hạn bởi đường truyền CPU-GPU) sang chế độ giới hạn bởi băng thông chế độ (giới hạn bởi bộ nhớ hoặc tính toán GPU).

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

For each kernel, decide whether the bottleneck is likely arithmetic throughput, memory bandwidth, or launch overhead: Vector addition (N=256), Vector addition (N=10^8), and Matrix Multiplication (N=8192).

N=256: Arithmetic; N=10^8: Bandwidth; MM: Launch

N=256: Launch; N=10^8: Bandwidth; MM: Arithmetic

N=256: Bandwidth; N=10^8: Arithmetic; MM: Launch

All are compute-bound.

QUESTION 2

In the context of the Performance Paradox, what is the primary bottleneck for a 'ReLU on a matrix' operation?

Arithmetic Throughput

Memory Bandwidth

L1 Cache Size

QUESTION 3

What does the term 'Asynchronous Execution' imply regarding GPU benchmarking?

The GPU and CPU always finish at the same time.

The CPU continues to the next line of code before the GPU kernel finishes.

The kernel runs faster on smaller GPUs.

Memory transfers are blocked by compute.

QUESTION 4

Why does $out = x + y$ exhibit low arithmetic intensity?

It uses three memory accesses (2 loads, 1 store) for a single floating-point operation.

The addition operation is too complex for the ALUs.

It requires shared memory synchronization.

It only runs on one SM.

QUESTION 5

How can the 'Launch Tax' be amortized in a real-world application?

By calling the kernel more frequently with smaller data.

By increasing the workload per launch (e.g., larger N or batching).

By using 16-bit floats instead of 32-bit floats.

By disabling the L2 cache.